from scrapeasy import Website,Page
# 在创建Website对象之前设置请求头
import scrapeasy


# 切换到当前文件所在目录
import os
# 切换当前工作目录到当前脚本文件所在的目录
# os.path.dirname(__file__) 获取当前脚本文件的所在目录路径
# os.chdir() 用于改变当前工作目录到指定路径
os.chdir(os.path.dirname(__file__))


# 设置要爬取的网站URL
url = "https://imgdata.baidu.com/"

# 初始化，指定要抓取的网站
web = Website(url)

# 获取该网站的所有子页面链接
subpage_links = web.get_subpages_links()
print("子页面链接:", subpage_links)

# 获取该网站上的所有图片链接
image_links = web.get_images()
print("图片链接:", image_links)

# 将该网站的所有图片下载到本地文件夹 `images`
web.download_media("img", "images")

# 获取该网站的所有外部链接 (只获取域级别)
external_domains = web.get_linked_pages(intern=False, extern=False, domain=True)
print("外部域:", external_domains)